#Meta AI
讀完200篇論文,看DeepMind、Meta、DeepSeek ,中美巨頭都在描述哪種AGI敘事
在剛剛過去的2025年,我通讀了大約兩百篇人工智慧領域的論文。如果用一個詞來形容這一年的技術體感,那就是「暴力美學」時代的終結。單純依靠堆砌參數摘取低垂果實的日子已經過去,2025年的技術進化回歸到了基礎研究。這篇文章,我想透過梳理這一年的技術脈絡,明確三個結論:的瓶頸,業界被迫尋找新的成長點,即從「把模型做大」轉向把「模型做聰明」。第一,2025年,技術進步主要集中在流體推理(Fluid Reasoning)、長期記憶(Long-term Memory)、空間智能(Spatial Intelligence)以及元學習(Meta-learning) 這四個領域。原因在於Scaling Law在單純的參數規模上遇到了邊際效應遞減,為了突破AGI第二,現在的技術瓶頸主要在模型要「不僅要博學,更要懂思考和能記住」。 透過Yoshua Bengio提出的AGI框架(基於CHC認知理論),我們發現先前的AI存在嚴重的「能力偏科」:它在一般知識(K)上得分極高,但在即時推理(R)、長期記憶(MS)和視覺處理(V)上幾乎是空白。這種不平衡構成了通往AGI的最大阻礙。第三,這些瓶頸在25年其實都找了一些新的解決方向,可以說是補短板很成功的一年。其中最重要的是三個面向。●  推理能力: 透過Test-Time Compute(推理時計算)引發的革命,AI學會了慢思考,推理能力實現了從0到8的質變。●  記憶能力:Titans架構和Nested Learning的出現,打破了Transformer的無狀態假設,讓模型具備了內化的“海馬體”,有望徹底根治金魚記憶。●  空間智能: 視訊生成不再只是像素的堆砌,而是開始掌握物理規律,邁向了真正的世界模型。接下來,我將根據這一年間的論文閱讀,帶領大家詳細看看這些關鍵拼圖是如何被一塊塊補齊的。(因為篇幅限制,各個方向上涉及的論文我只是簡單做了講述,如果有興趣深入了解,可以看文後的相關論文參考。已分章節處理。)01流體推理的演化,Test Time Compute的誕生與發展在2024年,AI明顯的短板是即時推理(R)能力。在GPT-4的時代,AI只會依賴機率直覺,推理什麼的一點不會。但在2025年,Test-Time Compute(推理時計算)透過拉長推理時間來換取智能。 Test-Time Compute 的核心概念是:智慧不僅是參數的函數,也是時間的函數。以OpenAI o1和DeepSeek R1為代表,AI學會了「慢思考」。 透過在推理階段投入更多的運算資源,它開始在輸出答案之前,在內部進行長達數秒甚至數分鐘的自我辯論和推演。這就是2025年最重要的典範革新,讓AI從背書的鸚鵡轉向思考的機器。因為模型的思考過程是無法在預訓練期間進行引導的,因此後訓練、尤其是強化學習(RL),就成了提升推理能力的最重要的手段。但事情並非一帆風順,在2025年,《強化學習真的能激勵LLM超越基座模型的推理能力嗎? 》這篇論文引發了大概半年左右的學術爭論。研究發現,在許多情況下,RLVR訓練後的模型產生的正確推理路徑,其實在基座模型的取樣分佈中原本就存在。 RL的作用只是銳化了分佈,顯著提高了採樣到這些路徑的機率,而並非真正「創造」了基座模型完全未知的推理能力。對此,在後續長達半年的論爭後,現在的通行結論是基座模型可能確實包含了所有必要的原子推理步驟(如加減法、基本邏輯變換),但RL的作用在於透過數萬次的試錯,篩選出能夠穩定維持長距離依賴的策略路徑。另外,CMU研究指出,RL訓練有三個階段。第一階段是“銳利化”,僅提升已知路徑的機率;但隨著訓練深入,模型進入“連結(Chaining)”階段,開始將基座模型中原本機率極低的不對稱技能(如驗證與生成)連結起來,從而解決從未見過的難題。這說明RL不光在銳化,也確實能夠有效組合新的推理方法。但學術界的這種形而上討論,沒能阻止業界的工程優化熱情。因為Benchmark的成長不會騙人。強化學習的本質,就是透過與環境互動獲得回饋,在探索未知與利用已知之間尋找平衡,以最大化長期累積獎勵為目標,從而學習出一套最優的決策策略。因此,它的工程可以拆分成核心的三個策略,探索策略(採樣)、評分(包括評分標準和如何評分)和參數更新演算法三個部分。在2025年,強化學習的方法在其中兩部分都得到了明顯的發展。而採樣的策略則還是集中在蒙特卡洛方法(一步一步尋找新分支)、暴力溫度採樣(調高模型的多樣性,采出多種可能)和在23年大火的STaR 模式(就是模型對自己的結論點評後,根據點評再找別的路)這三種方法上,不過25年,因為DeepSeek R1的成功,因為暴力溫度又能出明顯了主流工程結果。評分系統的革新在2025年首先發生的是基於可驗證獎勵的強化學習(RLVR)和稀疏獎勵指標(ORM)的全面崛起。由於DeepSeek R1的成功,讓大家發現,只要給模型一個對錯結論作為獎勵訊號,模型就可以自發性探索其中的推理過程。這導致了ORM的崛起。而在ORM領域,那些能明確給出結果對錯(可驗證的客觀真理)的領域,例如數學、程式碼、邏輯等方面,強化學習就很好下手,效果也很容易提升。基於這些客觀真理形成的強化學習獎勵機制,就稱為可驗證獎勵。在2025年前半年,RLVR(驗證結果)+GPRO(分組探索解法)的方法突飛猛進,基本上成了主流方法,也帶來了模型在程式碼、數學領域的能力大幅提升。然而,用的久了,大家發現如果像複雜數學、程式碼這種推理過程過長的情況,那ORM很有可能會崩掉。所以有的公司會在其中加一部分過程獎勵評分系統(PRM)的因素,例如Qwen的代碼解釋器驗證,主打辨識推理過程中的錯誤步驟。而防止ORM崩潰跑偏的KL正規理論也在今年有了更多的發展。另一個問題就是RLVR是挺好用的,但不是所有領域都有可驗證的真假,比如在文學、乃至醫療這種更偏統計性的領域,目前就沒有完全的真假科研,那怎麼辦呢?因此我們可能需要一個更宏大的Universal Verifier(通用驗證器),去解決這個問題。目前已經有的兩個思路,一個外求法:既然標準不唯一,那就人工或靠模型製訂複雜的評分細則(Rubic),然後讓模型根據Rubic去進行獎勵。而另一個,是相信模型自己的直覺(內求法),利用模型自己的確信度去影響無明確獎勵的領域訓練。例如Kimi K2的joint RL stage策略,就是把RLVR 和self-critique rubric reward 結合起來做RL。參數更新演算法的革新DeepSeek R1帶來的第二個RL震盪就是GPRO演算法的流行。在過去,RL的主流方法是PPO,在這個框架裡,有兩個角色,一個是Actor Model,負責寫答案。還有一個是Critic Model,來給演員的每一步打分數。這個方法特別適合PRM,給每步都評分,但它非常貴,因為它得一直在線訓練,讓模型嘗試完了再在線打分。但GPRO不一樣,它直接把Critic模型切掉了,讓模型產生一組答案,算平均分數來代替Critic,來看誰做的好,誰做的壞。一下子省下來50%的顯存,搭配ORM,更是極簡中的極簡。非常省成本,效果也不差。因此,基本上國內各家都是在GPRO的框架上延展,在2025年這一年發展出了各種變體。例如Qwen的GSPO的優化引入了分數加權,不只看你是否高於平均分,還看你的絕對得分是多少,讓GPRO能夠從對的里選出更好的,把全錯的都排除出梯度,讓訓練更穩。 Minimax的CISPO,則是發現傳統GPRO / PPO訓練的時候,會暴力截斷過長的COT上下文,導致核心思考沒辦法用起來,所以做了個重要性採樣,保留下更重的部分去更新。除了這些特別具體的更新外,業界同時試圖找到強化學習的Chichila法則。例如Meta的ScaleRL,就在多種消融實驗中發現RL的成長曲線其實有天花板。他們證明了RL性能與計算量之間不符合冪律(就是Scaling Laws那種算力越大,能力越大的模式),而是符合Sigmoid 曲線的(起步難,中間猛,最後死活漲不動)。這不是什麼好消息,表示RL是有天花板的。我們不能指望靠RL 無限提升模型的智力上限。 它只能把模型已有的(預訓練賦予的)潛能「逼」出來,一旦逼到了100%,RL 就失效了。想再突破,還得回去革新底座模型或是演算法架構。但好消息是,我們離天花板還很遠呢,還差著一堆工程創新。另外,基礎模型的能力提升也不是完全停滯的。ScaleRL也提出了一套最佳工程實踐,包括使用長思維鏈(Long CoT)作為關鍵驅動力,以及使用大Batch Size(如2048 prompts)來觸達更高的性能天花板。這項研究將RL從「煉金術」轉變為一門精確的工程科學,使得研究者可以透過小規模實驗精準預測大規模訓練的效果。所有這些對RL工程的探索,使得今年的模型,能夠在不增加參數的情況下,依然在整體能力上穩步上升。一次又一次打破ARC和Humans Last Exam的標尺,同時帶動了數學和程式碼能力的大幅上升。02記憶與學習, 治癒模型的健忘症如果說Test Time Compute是前半年最重要的模式變革,那後半年最重要的模型變革,就是記憶能力的提升。畢竟,這是唯一在GPT-5時代,在AGI得分裡還是0的分支能力,屬於短板中短板,漏水的大戶。模型沒有記憶有啥問題?第一,沒有記憶能力的模型不可能在現實中自我學習,必須得在算力工廠裡再訓練學習。這種再訓練昂貴,訓練源可能與日常使用完全脫節,因此持續學習成了一個無比困難的事項。第二,想有個能記得你是誰,你的偏好的AI,就變得很費力。例如我的Gemini 3,現在只靠系統級的Prompt累積一點點關於我的記憶,但大半還是錯的。在24年大火的RAG(檢索增強生成)雖然作為一種外掛式的「海馬體」緩解了這一問題,但它當時的形態只是資料庫和搜尋機制,還很不好用。在25年,記憶問題的研究其實得到了許多發展,只是大多出現在後半年,尚未真正融合進工程。記憶可以分為三種方式,上下文作為記憶、RAG處理過的上下文作為記憶以及將上下文融合到參數裡,內化的進行記憶。難度層層遞進。今年RAG和參數調整的記憶方式都發生了很大的科研進步,但其中最耀眼的是Google Research發布的Titans 架構以及Nested Learning,是2025年記憶領域的最大突破,屬於架構級提升。從根本上挑戰了Transformer的無狀態假設。我們現在一個個看。模型,獲得活著的記憶Titans 是一個深度的神經長期記憶模組,能夠在測試時(即推理過程中)即時更新自身的參數。這和傳統的Transformer層,訓練完就凍結完全不一樣。 Titans在一開始就是個空容器,就一個初始權重,將歷史資訊學習進神經記憶中。和傳統的壓縮模式(Mamba)比,這種學習是無損的。那怎麼決定什麼東西記憶,什麼不記?靠驚奇度(Surprise Metric),模型會根據輸入資訊的意外程度(梯度大小)來決定是否將其存入長期記憶。這和人差不多,越新鮮有衝擊的東西越記得住。Titans是隨時更新權重的,這意味著還要做反向傳播和梯度更新,豈不是很貴嗎?確實,單看是很費GPU算力,但它一般是和普通Transformer層混用,只佔一小部分,所以雖然但並不很重,而且可以省去巨量的上下文開支。而且,它還可以將記憶作為額外的上下文輸入給注意力機制,如同一個高級助手,提供背景資訊。透過門控機制融合短期注意力與長期記憶,處理更靈活,並行處理短時與長時依賴。這也可以提升模型本身的效率。同時,Titans也引入了遺忘機制(Weight Decay),自動清理不再重要的資訊。如果說這是在不會記新東西的Transformer上加了一些記憶模組補丁,那麼Nested Learning就是一個更宏大的架構改變。在Nested Learning中,Google做了一個分層,把模型的架構分成了低、中、高三個更新頻率的神經網路層。把整個模型的參數凍結都解放了,這個模型都是活的,可以隨時調整參數。低頻參數的調整很慢,大概需要16M token的前向更新才會調整一次。它保證了知識的延續性,避免了災難性遺忘。而快速的回饋則交給高頻的神經網路層處理,這樣可以快速反應,做短期記憶。於是我們就有了一個持續更​​新的,非凍結的神經網絡,它可以抱持長期記憶,並持續學習。而且因為更新頻率不高,且更新比較局部,其成本比一般的SFT、RL達成同等效果的成本還要低。谷歌甚至提出了一個更大的體系MIRAS,它把序列模型看成一個會邊讀邊寫的聯想記憶模組。每一個token,你把它投影成key 和value;模型用當前記憶去「檢索/回憶」一個value;然後用一個內部目標函數(attentional bias)和一個保留/遺忘約束(retention gate),透過某種線上優化/更新演算法(memory learning algorithm)去更新記憶。 Titans和Nested Learning,都屬於在不同層面上對MIRAS的嘗試。這項調整,使得模型具備了持續學習和更新長期記憶的基礎。不過考慮到它對模型架構的改變,在工業大規模應用上可能還需要一段時間。RAG模型化之前,RAG曾被訌諷為圖書館員,只增不減,照單全收。但2025年,它發生了質的飛躍,演變為具備反思與進化能力的系統,甚至可以在一定程度上產生如同參數般的效果。這波RAG改造浪潮中,比較有代表性的還是DeepMind 提出的ReMem 和Evo-Memory。ReMem讓RAG不再是簡單的資料庫式的“檢索-生成”,而是透過一個Agent 引入了Action-Think-Memory Refine 的全鏈路處理方法。在新上下文存入記憶前,會有個Agent對其進行「內省」(Think),標記出那些是無效步驟,那些是關鍵策略。在記憶過程中,模型也會對進來的上下文進行修剪(Pruning)和重組(Reorganizing),讓它更容易被檢索,保留最重要的資訊。同時,模型會定期清理無用的記憶,甚至將失敗的嘗試作為「負面教材」存入,其效果等同於RLHF(人類回饋強化學習)的負向懲罰。這機制使得記憶不再是靜止的錄影,而是經過壓縮和提純的智慧。它儲存的更多是策略,使得模型在處理類似任務時能夠調用過往的成功經驗,實現了真正的經驗復用。微調與蒸餾讓遺忘性災難不再存在在2025年之前,災難性遺忘是參數記憶更新的最大敵人。模型用微調的方式做更新,很容易學了新的忘了舊的,通用能力受損;用強化學習做更新,不容易遺忘,但成本又太高。但在2025年,學術界提出了多種解決方案,讓模型在學習新知的同時不失去舊能力。例如Meta 提出的Sparse Memory Finetuning (稀疏記憶微調)。它在Tansformer裡加了一個百萬個獨立插槽的空白記憶體層。當新知識進入時,系統篩選出更不重要的、和核心舊知識相關性不高的插槽進行更新。這種稀疏更新策略,確保了在註入新知識的同時,絕大部分舊參數保持不變,從而完美保留了原有能力。實驗表明,在TriviaQA事實注入任務中,該方法僅導致11%的舊知識遺忘,遠優於全量微調的89%。再如Thinking Machines 提出的在策略蒸餾(On-Policy Distillation, OPD),結合了RL 的取樣方式和SFT 的監督訊號。訓練資料不再是老師的錄影,而是學生模型自己即時產生的軌跡。學生要在自己真實的「犯錯分佈」中學習,這是RL的取樣方法。但它評估用的是SFT的密集回饋,老師模型會全程陪跑,在學生生成的每一個Token 上都計算KL 散度(即直接告訴學生你和我的差距在那裡),提供密集的即時反饋,而不是像RL 那樣最後才給一個標量分數。這種方法創造了一種既不會導致災難性遺忘,同時也極大壓縮成本的參數更新方式。兩條路徑,最終都導向了透過微調更新模型參數更穩定的路徑,這樣的話模型就可以更快捷、便宜的進行線下更新。夢想中的白天模型陪你說話, 晚上你睡覺更新你的神經元連接,它微調更新它的參數,也許會變成可能。03走出“柏拉圖洞穴”,迎來空間智能(Gv) 與世界模型另一個在Bengio AGI定義2024年得分還是0的一項,就是視覺處理。今年,這項能力在Sora 2、 Veo 3等生成影片的爆發之下,得到了有效的提升。在Veo 3等模型能夠有效保持物體位置一致性的情況下,模型似乎開始有了對物理規律更深的掌握,進入到了空間智能和世界模型(World Models)的範疇。雖然今年主要是李飛飛在大力宣揚空間智能的概念。但實際上在這條路上,一共有三個主流派系和玩家,在今年也都各有研究進展。自監督生成模型的Scaling Law第一派就是Sora 2、Veo 3這些採用了DiT架構的自監督模型,也就是我們常見的視訊生成模型。不過要論空間智能,2025年8月,Google DeepMind發表的Genie 3更明顯。 Genie 3,是個生成的、可互動的、持續演變的3D環境。與其前代相對破碎的呈現不同,Genie 3具有了即時性和一致性。它能以24fps的幀率和720p的解析度即時渲染環境,且能維持數分鐘的場景一致性。如果你在虛擬世界中打破了一個花瓶,當你轉身離開再回來時,花瓶碎片依然在地上,而不是像早期生成視頻那樣莫名消失或復原。除此之外,Genie 3非常好的展現了自監督模型的物理學習能力。它完全沒有參考物理引擎,只是透過觀看海量影片數據,自發性地學會了流體流動、光影反射甚至風吹樹葉的物理規律。之所以視訊生成模型能夠獲得如此大的進步,主要是因為學術界發現了視覺自回歸(Visual Autoregressive, VAR)和擴散Transformer(DiT)的Scaling Law。2024年,字節的Visual Autoregressive (VAR) 模型的提出,排除了Diffusion部分,透過改變token的建模,從行變成圖,讓自回歸獨挑大樑。因為是純自回歸,它的性能嚴格遵循Scaling Law。但這個路子畢竟還是有點野。在25年的論文《Towards Precise Scaling Laws for Video Diffusion Transformers》,更主流的DiT也被發現符合Scaling Law,不過這個Law與LLM不太一樣。與LLM相對穩定的特性不一樣,視訊擴散模型對批量大小(Batch Size)和學習率(Learning Rate)表現出極高的敏感度。直接套用LLM的縮放定律會導致預測失效。但用上特製的Scaling Law,DiT模型就可以大力出奇蹟了。在Veo 3成員的訪談中,Deepmind的員工就表示,訓練這麼好,主要是打通了影片產生的Scaling Law。除此之外,今年影片產生的另一個新變化就是加上聲音了。這主要歸功於Google一直堅持的原生多模態能力。而2025年4月,Apple Machine Learning Research發表了《Scaling Laws for Native Multimodal Models》發現,晚期融合架構(後台多模態)相對於早期融合架構(原生多模態)可能存在一定上限上的劣勢。過去晚期融合模型通常表現出較高的樣本效率,就是我後面加一個影像編碼器,就可以直接讓語言模型變成視訊模型,變化賊快。這意味著費力去訓原生多模態,得不償失。但晚期融合模型在參數利用率上存在瓶頸,為了達到特定的性能水平,晚期融合架構得需要更大的模型尺寸來補償那個新加視覺編碼器帶來的表徵限制,因此同等規模,上限更低。另一個特別值得注意的動向,是VAE的消失。 VAE你可以理解成視訊的壓縮器。一個影片包含的資訊太多,直接給模型,它就會崩潰,所以需要一個壓縮器去壓縮成模型可接受的資訊密度。但這麼一壓縮,重構必然會導致高頻細節丟失,而且VAE是獨立的模型,其生成的Latent Space 與大語言模型(LLM)或多模態模型(VLM)的語義空間不對齊,訓練上非常麻煩。2025 年10 月快手的《Latent Diffusion Model without Variational Autoencoder》 論文提出了SVG 模型,透過直接用影像理解模型取代VAE,統一語意空間,這個模式大大提升了訓練效率(號稱提升6200%)和生成速度。而且它的效果不但沒有因為「快」而縮水,反而在多項核心指標上擊敗了現在的霸主DiT(Diffusion Transformer)和SDXL。因為這個模式,有大一統的美,又有benchmark的美,應該很快就會成為主流。符號主義的World Labs :基於3D CV生成的世界第二派是史丹佛教授李飛飛領導的World Labs 派。這一派的特色就是,生成好,但要在固定的物理框架下生成。純粹自監督,太不可靠了。他們在2025年11月推出了首個商業產品Marble平台。這是一個「大型世界模型」(LWM),旨在從多模態輸入中產生可探索的3D 環境。與Sora 輸出像素流(影片)不同,Marble 輸出的是空間表示。根據媒體分析,Marble 大概率是依賴3D 高斯潑濺(3DGS) 作為其渲染基元,並可能結合了神經輻射場(NeRF)的結構估計原則。當使用者輸入單張圖像或文字提示時,Marble 會估計場景的深度、光照和被遮蔽的幾何結構。然後,它將這些2D 資訊「提升」為由數百萬個高斯「潑濺」(具有顏色、不透明度和縮放屬性的橢球體)組成的3D 體積。始終是放不下CV多年來世界建構的努力。這種對傳統CV的應用,也體現在World Labs 提供的創作工具Chisel 上。它引入了神經符號(Neuro-symbolic)工作流程。使用者可以使用粗略的幾何基元(盒子、平面)定義世界的“骨架”,以建立佈局約束(例如,“我需要這裡有一扇門,那裡有一堵牆”)。生成模型隨後根據文字提示對這一結構進行「繪製」和細節填充。比起Sora 生成的黑盒,Marble雖然不是很性感,但確實更穩定,更可控。也許World Labs這條路能是最早走通工業落地的方向。預測即理解:V-JEPA 2與物理直覺另外一派代表是Yann Lecun,他的特色就是極端的深度學習表徵派。對於他,大家可能都或多或少聽過,Lecun的觀點一直是:自回歸的生成式模型根本不可能掌握物理規則,只是鸚鵡而已。那要怎麼掌握規則呢?靠預測。只有預測,能學習物理規則的表徵,而不是那些像素的關係表徵。 Meta推出的V-JEPA 2,訓練機制就是隨機遮住影像的一部分(Masking),然後要求模型根據先前看到的畫面,預測被遮蔽部分的內容,只練預測。然後,一個教師編碼器看到完整的視頻,根據這個幫學生,生成目標特徵向量。這種設計使得V-JEPA 2具備了極高的語意抽象能力。模型被迫學習場景中那些「可預測」的規律(如重力下落、剛體碰撞),而自動忽略那些「不可預測」的隨機雜訊(如光斑的閃爍、背景的紋理雜訊)。在Yann Lecun的考慮中,這提取了因果本質。這套理念其實並不新,和他2024年初發布的V-JEPA 1完全一致。但當時,V-JEPA 1 只用了100M左右的資料集做訓練,其效果只能是理解視頻,並不能展現出反事實預測的能力。但在V-JEPA 2裡,Lecun優化了訓練過程,花了100萬+ 小時的影片訓練集,結果模型確實湧現了「推演」的能力。在V-JEPA 2-AC(動作條件化)變體中,JEPA模型確實做到了可以預測「如果我執行這個動作,世界會變成什麼樣子」。這毫無疑問,是對這條路徑的一劑強心針。說明預測,掌握物理規則這個訓練模式是有效的。不過到了JEPA 2,它能夠處理的時間跨度也不過64幀(根據採樣規律,約10秒),分辨率只有384x384。和人家生成路線高清2k、20s生成比起來,還是差太多。想要真正實用,還得在工程上做不少事。04重要的是學習從深度學習肇始,核心問題就只有一個,也就是什麼是學習。到2024年為止,大模型早已經具有了許多學習能力,能夠從海量資料中尋找到資料的連結方式,進而達成一種與人不同的學習模式。然而,在2025年,強化學習之父Richard Sutton 仍然批評當前的大語言模型(LLM)只是“被凍結的過去知識”,缺乏在與環境交互中實時學習的能力。這是說模型缺乏持續學習的能力,這個問題在上面記憶部分有可能會被解決。Sutton的另一個批評就是模型並不會元學習,也就是學習怎麼去學習,學什麼。他所謂的元方法(Meta-methods),指的就是「在這個時刻不要把知識寫死,而是把『獲取知識的能力』寫進程式碼裡」的方法。這樣,模型才能利用無限的算力和數據,去適應無限變化的世界。只有有元學習的能力的模型,才能在遇到新問題時, 透過很少幾個樣本,調動腦子裡的「通用解題邏輯」(元知識),立刻做出解答,做到真正的低成本、快速適應。並透過「如何觀察特徵、如何歸納特徵」的能力,迅速歸納出規則達成完整的動態泛化。沒有元學習,模型就不可能應付未知。 因為你無法預知未來會遇到什麼任務,所以你不能預先訓練它,只能賦予它現場學習的能力。元學習與中訓練在2024年之前,學術界一直有關於當時模型是否具有隱性元學習能力的討論。很多人認為是有的,因為有上下文學習(In-Context Learning)的現象。因為我們不改動參數,只是給GPT 看幾個例子(Prompt),它就像學過了一樣能夠舉一反三。對此,包括Anthropic在內的研究機構,都提出Transformer中的注意力機制在數學形式上,與模型學習時梯度下降(Gradient Descent)的更新步驟非常類似。 Deepmind的論文,更證明對於線性注意力模型,Transformer 的前向傳播過程可以被嚴格推導為「在大規模預訓練學到的權重上執行梯度下降」的過程。但同樣,也有很多研究,證明上下文學習其實沒在新學習例子中給出的映射關係,只是在自身的概念空間裡,利用格式(Format)激活了預訓練期間早就記住的知識。就是說啟動了相關性而已,不是真在學,而是在套模版。這和我們所提到的元學習的理念大相逕庭。不過,在2025年12月份,蘇黎世理工也發表了一篇Meta RL的論文,設計了更好的脈絡框架,更有效的利用ICL來作為一種元學習的方式。讓模型透過上下文自我反思和歷史回溯,來形成新策略。在下一次嘗試中,Agent 實際上是在執行一個新的Policy ,因為上下文變了。它看起來和上面提到的谷歌的ReMeM很像,但更關注策略更新,而不是上下文管理。也許他們結合起來,才是最好的上下文作為權重的方法。但最大的改變,是TTC的到來,為隱性元學習提供了其他的可能性。在推理革命初期,大家都發現可能模型思考了很長一段時間,輸出了很長的思維鏈,但要不是沒用,就是都是錯的。所以不是思維鏈越長模型就越強。我們得引導它的思考過程,讓它在最短的思考中,達成最優解。這其實本質上就是一種訓練模式如何思考的元學習。卡內基美隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》就是在這個方向上的嘗試。它先證明了,模型在推理時產生的長CoT,本質上是一個Agent 在思考空間中探索最優路徑。那如果這種探索可以做到更有效,其實就是一種元學習的能力。這種元學習,就是引導模型在推理過程中,能有效尋找最佳路徑,合理地分配算力。他們使用的策略是累積遺憾最小化(Cumulative Regret)。如果模型多思考了很多步,但答案的置信度沒有提升,這就是個遺憾,需要在後續規避。我們在做強化學習的時候,應該引導模型盡可能減少遺憾發生的可能,讓模型知道遇到這種難度的題,我應該呼叫多少算力、嘗試幾條路徑。這就是學習的方法。但這些方法,雖然比單純的脈絡學習走的遠,但仍侷限在優化現有的探索路徑這個層面,向外探索的能力仍然不足。我們可能仍需要在單純的梯度之外,建構一套明確的系統,引導模型學習學習。例如DeepMind 今年發表DiscoRL,它包含兩個核心閉環:內部循環由Agent在Atari等遊戲環境中試錯,外部循環則由「老師」透過反向傳播觀察學生的表現,不斷修正教學策略(即更新學習演算法的參數)。這個過程讓AI自主發現了想要得到最好的結果,得從“獎勵最大化”轉向“未來預測”,而且這些預測往往集中在重大事件(如Ahamoment和改變方向)發生之前。在這過程中,教師獨立「重新發現」了RL中的自舉法,證明了AI可以透過這種遞歸的抽象從純粹經驗中真的學習到應該如何去探索。實驗結果顯示,由此系統自主發現的演算法(Disco57)不僅在雅達利基準上擊敗了包括MuZero在內的人類設計頂級演算法,更展現了驚人的泛化能力。即使在未見過的ProcGen和NetHack等複雜環境中,它依然表現出色,證明其學到的不是單一遊戲的技巧,而是普適通用的學習法則。Meta在《Agent Learning via Early Experience》的中訓練嘗試,其實也殊途同歸的走向了一樣的路徑。預訓練是讓AI死記硬背專家的正確操作,RL是直接扔到現實世界裡依靠稀缺的獎勵摸爬滾打。而中訓練,就是在這之間讓Agent自己瞎折騰產生後果,並且反思。具體到操作層面,在專家演示的每一步,會強制AI嘗試幾種不同的“備選動作”,然後記錄下這些動作會讓環境變成什麼樣。同時,也要對為什麼專家做得好,我做的不好進行反思。這其實就是訓練AI不僅僅知道“怎麼做是對的”,而是建立起“如果我這樣做,世界會那樣變”的因果模型。在一種探索和嘗試,以及對嘗試經驗的遞歸中,模型也許確實學會瞭如何學習這個世界的規律。它能顯著提升其在WebShop、ALFWorld等複雜環境中的成功率(平均提升9.6%),並大幅增強了泛化能力。這幾種方法有一個共通性,即他們都掌握了「想有效探索,必須建立一個對世界的預測」的想法。這和Google《General Agents Need World Models》一文的結論不謀而合。神經科學的投影2025年的神經科學研究,讓我們可能能更理解人類是如何進行學習的。過去我們認為神經網路是一個混雜的“黑盒”,但在《Building compositional tasks with shared neural subspaces》這篇論文證明了大腦內部存在著結構化、正交化的神經子空間。這些子空間就像是物理層面的“符號”,它們將“顏色”、“形狀”、“動作”等概念從混沌的電信號中剝離出來,形成了獨立的、可複用的模組。研究發現,大腦執行新任務不是靠修改神經元的連結(長出新腦細胞),而是靠一種「動態路由」機制。前額葉皮質根據當前的“任務信念”,像接線員一樣將不同的神經子空間重新連線。其實人類在學習過程中,是將簡單的模組拼裝成新任務來去行動。今年哈佛的論文《WHAT DOES IT MEAN TO UNDERSTAND LANGUAGE?》則認為大腦的「語言區域」其實並不負責真正深刻的理解,它只是做了一些表層的處理,然後必須把訊息「外派」給大腦的其他專門區域(比如負責視覺、社交、物理推理的區域),才能實現真正的「深度理解」。在這種理解之上,2025年湧現了許多對模型進行分區的嘗試,包括上述的記憶分區,或是把模型的參數分成專門處理快、慢反應的兩個組別的嘗試。05讀寫速度、注意力和Scaling Law的基礎以上四個部分,可以說是2025年最引人注目的四個進步。因為它們在AGI的量表中,都是一步步覆蓋到原來完全為0的新領域。從零奠基,範式革新。然而在這之外,2025年也有其他一些重要改變,有效的補齊了過去模型並不擅長的領域(例如上下文和處理速度),並且可能隱含著一些訓練範式上的大規模修正可能。以下我們就透過一章,快速涵蓋這些領域。對抗“Scaling Law的消失”就像文章一開始所寫,在2024年末時,GPT 4.5已經遇到了網路資料枯竭的問題。而且在訓練超大型稠密模型的工程難度也幾何增加,問題不斷。Scaling Law眼看難以為繼之時,OpenAI 在GPT-5.2 中並未繼續盲目擴大參數,而是靠稀疏性(Sparsity),即MoE、合成資料(Synthetic Data)與RL加強三方結合,突破瓶頸。MoE,是DeepSeek 一直以來的方法,在V3成功之前, 業內很少有人使用。但它確實具有訓練資源消耗少的特徵(一次訓練整個模型vs 一次只訓部分專家),因此,大規模稠密模型帶來的工程問題在一定程度上被解決。而強化學習和測試時時間,讓模型可以繞過參數的Scaling Law,用上面說到的RL的Scaling Law繼續提升能力。但數據怎麼辦?在2025年,隨著推理能力的進步,模型現在已經可以自主生成長思維鏈(COT)文本了。 DeepSeek R1的論文表明,利用DeepSeek-R1產生的長思維鏈對小模型進行微調,其效果遠超使用人類專家編寫的CoT數據。因此,到此時合成資料的問題已經解決了一半。另外,2025年也有很多證據證明,數據在精,不在多。而且品質最好的就是長COT數據。芝加哥大學團隊的實驗數據表明,當數據量達到一定規模後,資訊大多是重複冗餘的,訓練效果反而不好。與其盲目追求P資料量,不如透過去重和多樣性篩選來降低資料密度,加強單位資料的「驚奇度」(Surprisal)。而且最有驚奇度的在現階段正是長COT。在他們的實驗Select2Reason中,僅僅篩選出前10% 推理路徑最長、最複雜的樣本進行訓練,其效果就匹配甚至超越了全量數據集。因此,長COT文字合成數據,已經成了翻越數據牆的一種最有希望的方式。但2025年10月的一項熱點研究發現,模型在大規模使用合成數據,包括互聯網上流行的AI生成數據後,會發生“腦損傷”,也就是遞歸(持續用自己推導自己)導致的模型崩潰(Model Collapse)。一方面模型的長尾泛化能力下降,另一方面,模型會持續放大過去產生的錯誤,盲目自信。不過研究並沒有單獨拎出來長COT文字資料做範例。好在這並非必然。南洋科技大在NeurIPS 2025的論文中,就建立了一種利用自我驗證機制過濾資料的方法。在產生合成資料後,模型會計算其內部置信度分數。如果分數低於某個閾值,表示模型對該生成內容存疑,那麼這些資料就要被丟棄。他們的數據證明,只要模型的校準誤差在一定界限內,僅憑自我驗證就可以在完全合成(Fully Synthetic)的資料體制下,讓模型一直訓練下去,而不會崩潰。在2025年,科學研究界也發明出了更複雜的方法來做清洗。例如利用另一個模型作為裁判(LLM-as-a-Judge)去搭建一個資料清洗流,確保其可驗證性和效果。甚至有意識的讓Agent去生產模型知識空間中的空白(Missing Nodes),以解決遞歸帶來的多樣性喪失。感謝蒸餾,我們或許不必再承擔推理慢的代價了Gemini 3 Flash在年底的橫空出世,讓人對小模型的能力提升有了非常直觀的感受。在Gemini 3 Flash之前,雖然Nvidia一直鼓吹小模型時代,微軟的Phi 4、谷歌的Gemma 3等小模型也表現不俗,但沒有任何一家的小模型能夠真正替代自家主流模型成為日常主力模型。所以2025年這一年到底發生了什麼,讓小模型突飛猛進?主要是蒸餾方法的兩大主要的進步:MoE的蒸餾,以及COT的蒸餾上。先說MoE蒸餾。在DeepSeek的帶領下,現在主流的模型都是用MoE的架構了。但先前的傳統的蒸餾方法往往忽略了那些未被路由選中的專家(Non-activated Experts)所蘊含的「暗知識」。2025年2月的論文《Every Expert Matters》就提出了針對MoE 的特化蒸餾方案。此方法在蒸餾過程中,透過多次採樣或強制活化策略,讓學生模型接觸教師模型中不同專家的組合輸出。這樣學生模型(通常是較小的稠密模型)不僅學習到了“最優解”,還學習到了不同專家對同一問題的不同視角。這類研究,給出了MoE蒸餾的工程方向。另一個難題就是將長思維鏈能力高效遷移到小模型。傳統的單一教師蒸餾處理長序列推理中的誤差累積問題非常不力,並不適合長COT的蒸餾。而簡單的將多位教師的資料混合(Data Union)往往會因為推理路徑的衝突而導致模型困惑,反而降低了效能。為了能因應這個情況,思維融合蒸餾(Merge-of-Thought, MoT) 應運而生。這是一個輕量級的、迭代式的蒸餾框架,透過共識去噪(Consensus Denoising)原理,讓多個教師可以有效的引導學生模型,還可以避免長序列推理的誤差累積。例如在解決同一個複雜數學或邏輯問題時,不同教師的表達各異,但其核心的推理邏輯往往是相似的。就那乾脆在高維度參數空間中,讓學生模型能夠提取出所有教師的“公約數”,即最穩健的推理邏輯。透過這兩種方式,加上長COT本身對蒸餾的增強作用,讓小模型的能力越來越強。也許有一天,我們甚至不用犧牲推理帶來的速度減緩,就能享受完整的智慧體驗了。注意力機制的變化,解放脈絡每一年,注意力機制都會有些新突破。畢竟這是自迴歸框架下最重要的機制之一,它深度影響了大模型的脈絡能力和指令遵從能力。 2025年的變化相對比較多元。如果說2024年以前是MHA(多頭注意力)的時代,那麼2025年則是MLA(Multi-Head Latent Attention,多頭潛在註意力)及其變體全面普及的時代。從DeepSeek從V3開始採用MLA架構後,它就開始大受歡迎。畢竟既能壓縮大量降低顯存佔用,又能保持了原有註意力機制的水平,多好。而且在推理COT越來越長的背景下,的KV Cache顯存爆炸問題更嚴重,MLA 也更加流行。不過在發展過程中,MLA現在很少是作為一個獨立的注意力層被應用,而是更多地作為一種「高性能組件」被嵌入到混合架構中,給其他更高效的注意力新方法做精度保底。2025年的另一個變化是線性注意力的複歸。長期以來,線性注意力被視為全注意力的一種「有損壓縮」妥協方案,它用精確度的下降換取推理速度。但在2025年,隨著Kimi Linear的發布,這種刻板印象被徹底打破。Kimi Linear採用3:1混合架構(3層線性穿插1層MLA),利用線性注意力層承擔主要的計算負載(節省75% KV緩存),再利用MLA兜底全局信息,實現了在1M超長上下文任務(RULER測試)中達到94.8的高分,性能上首次全面超越全注意力。這標誌著線性注意力現在又了從備胎轉為主力的實力。除此之外,Kimi還證明了線性注意力可以內在地學習各個token的位置信息,從而不再需要傳統的RoPE(旋轉位置編碼),在1M上下文解碼時,少了ROPE和N方的計算量,它的吞吐量可以達到全注意力的6.3倍。除了在傳統的Token層面優化注意力,2025年的另一個重要趨勢是打破離散Token的限制,朝向連續空間(Continuous Space)演進。這以「大型概念模型」(Large Concept Models, LCM)和騰訊的CALM(Continuous Autoregressive Language Models)為代表。傳統的LLM只預測下一個token,因此非常慢,且對於長文本概念的關聯性理解也不行。 Meta的Large Comcept Moedel 則試圖將多個Token壓縮為連續向量,從「預測下一個字」轉變為「預測下一個概念向量」。這增加了每個生成步驟的“語義頻寬”,在一次推理步驟中產生相當於原來4倍的信息量,理論上能讓模型訓練和推理的更快。這個邏輯很好,但在LCM提出時,因為壓縮token向量的工程化問題,其訓練效率並沒有比傳統方法提升太多。但今年10月,騰訊的CALM才第一次在工程上找到了平衡點,用更極簡的方式證明了這條路徑的工業可行性。062026,模型研究可能往那裡走?在了解完2025年模型的進步路徑後,我們可以暢想明年可能出現的一些研究方向。首先,我們上面提及的這些方向,毫無疑問會朝著更精細化和工程化的方向演進,進而為我們帶來模型體驗上的持續提升。從2025年的技術總結中,我們已經可以看到,幾乎所有重要的Scaling Law繼續發威的絆腳石都被搬的七七八八了。也正是因此,我們才在年末迎來了Gemini 3和GPT 5兩個確實提昇明顯的新模型。雖然像Test Time Compute這類範式革新性的創新是難以預測的,但有些已有苗頭的新方向很可能會在2026年結果,產生很重要的落地應用。我下面會羅列一些我認為可能會發生的技術推進方向。記憶的工程化實踐2026年,一定是記憶大年。因為記憶關切持續學習,事關Agent落地(個人化和新技能學習),如果理論上的方向已經明確,那除了工程上的難題外,基本上沒有什麼可以阻止它落地。在AI領域,我們以TTC革命為例子,可以看到一個複雜的系統性新想法從產生、實驗、工程落地,大概需要的時間是2年左右。 2024年末的GPT o1,實際上在22年左右,已經在Illya腦海中逐步成型,到方法確定和工程優化,大概用了整整兩年。在2025年,我們看到了從RAG、微調到架構上三種路徑上的思考都逐步邁向成熟,並且已經進行了小規模的實驗。這說明很可能再有一年時間,這些研究成果就可能在工程上成熟,被採用。在一個成功架構(例如像DeepSeek R1)的推動下,成為標配,完成範式轉換。即使做不到架構層的變化,RAG層的精修和SFT技術的最佳化,也可以讓之前那些實驗性的記憶系統,例如Mem0、Second Me有了更好的落地體驗。在2025年中,基本上主流模型都已經配置了基於情境的記憶系統。但在2026年,更細節,更具學習性的記憶將會逐步被產品化。標準架構的變革不論是Nested Learning、還是元學習,以及Universe of Thought,似乎都在證明著,我們當下的語言模型架構必須進行一些升級,才可能補全其缺失的能力。這種升級的趨勢主要以分區、分層、增加更多功能層為特質。不管是直接在層級間加入Titans 的記憶層,還是像Herachical Reasoning 那樣,把模型分成不同的分區,都可能更符合人腦運作的模式。在2026年,這種潛在的混合架構,可能會隨著神經學和符號主義的回潮,變得有更多更豐富的嘗試。進化的螺旋開啟2025年除了推理這個字之外,最熱門的應該就是自進化了。這是機器學習的聖杯。一個可以無限自我對弈、自我演化的通用型AI,基本上等於是AGI、ASI。不過在2025年,探索才剛起步。在這一年裡,有借鑒了生成式對抗網絡,讓模型能夠在無數據的情況下,自問自答進行強化學習的。這條路確實走的通,也確實是自進化,但它的上限依然受制於模型本身的預訓練能力,暫時沒有呈現出超過人工設計的後訓練的水平。自進化AI的另一個驗證方法是是否能發明出讓自己進化的演算法。這就是Alpha Evolve努力的一個方向。它是由系統使用Gemini Flash(追求速度)和Gemini Pro(追求深度)組成的模型集成,形成一個獨立的探索Agent。系統將目前表現最好的演算法程式碼作為上下文輸入LLM,並告訴這些Agent,去優化這段程式碼的某些具體方向。 LLM由此產生多個變異版本的程式碼。在Agent規則的限制下,這些變異一般是邏輯層面的重構,例如改變循環結構、引入新的數學技巧或調整資料結構。產生的程式碼會被放入沙箱環境中執行。系統透過預先定義的測試案例驗證其正確性(Provable Correctness),並透過效能分析器測量其效率(如延遲、吞吐量或指令數)。那些既正確又更有效率的演算法將被保留,成為下一代的父本。由此,持續的多次最佳化,最終帶來演算法的最優最佳化。在實踐上,Alpha Evolve確實找到了優於人類答案的最佳化演算法。不過,我們其實可以把Alpha Evolve看成Deep research的變體版本,只是把搜尋部分換成優化而已。在缺乏反思和內化,只是作為流程Agent存在的大模型,雖然確實可以找到演化演算法,但很難稱之為自進化。以上兩種比較有代表性的嘗試,其實都屬於自進化早期的嘗試。在記憶、合成資料、後設學習的模式完善之後,自進化的AI在2026年必然會產生更多的可能性。(騰訊科技)
AI進入「拼爹」的時代
有技術的,幹不過有背景的?如果說AI故事的第一章叫作「技術的革命」,那麼第二章的主題,看起來越來越像「權力的遊戲」。王晶曾說,過去的香港,每個拍電影的都是有“背景”的。因此演員和導演往往身不由己,電影生意的競爭也往往是背景的競爭。AI生意越來越有這個意思。大家都帶著背景和資源,這裡是Google、微軟、Meta、字節、騰訊、阿里交鋒的修羅場。每一天,抖音用自己浩如煙海的流量鋪天蓋地推舉豆包。Google用全公司的資源,在一系列APP裡狂推自己的Gemini。這種巨頭之力,那怕優秀如Manus、OpenAI也難以對抗。2025年11月起,原本落後的Google迅速在性能和使用者上追趕上了ChatGPT,尤其是在多模態領域,已經反超OpenAI在各種評測中位居第一。奧特曼直言,Google的崛起給OpenAI帶來很大的壓力。曾經火遍全球的通用智能體Manus,也放棄了單打獨鬥,網際網路巨頭Meta選擇將收購Manus。Kimi、DeepSeek這些紅極一時的“當紅炸子雞”早已被豆包、元寶鋪天蓋地的流量壓了下去。在這個拼爹的世界裡,似乎只有超級巨頭才有上桌的資格。以小博大的故事在商業裡十分常見。那怕是騰訊、阿里、Google、蘋果,也經常在某個領域輸給創業公司。但在AI裡,這種故事好像顯得困難了許多。看能力,更看資源娛樂圈裡有一種說法,藝人只要給足飽和式的曝光,都能紅。這也是眼下AI領域的現狀。ChatGPT是ChatBot的發明者,相當於蘋果發明了現代智慧型手機,無論是技術,還是品牌,都是真正的遙遙領先。但當超級巨頭Google發力,ChatGPT很快感受到了壓力。Gemini在多項機構評測中反超GPT,奧特曼在內部信中發出警告:公司的技術領先優勢正在縮小,並預計外界氛圍將在一段時間內“相當艱難”。國內市場,豆包早已取代Kimi成為月活第一的LLM產品。以搭載DeepSeek為賣點的元寶使用者資料也早已反超DeepSeek,成為了DeepSeek崛起的流量受益者。它們為什麼如此強勢,逆襲領先者?答案當然是因為有Google、字節跳動這些大廠在背後提供資源。其實明星AI創業公司背後都有大企業和大資本的投資,帳上也有很多錢,也有很多資源。但背靠巨頭帶來的生態優勢,創業公司們真的沒法復刻。比如Google直接把Gemini植入Android,作為默認的手機助手。Google還有排名第一的瀏覽器Chrome,Gmail,微軟的Copilot也直接融入Office套件。這種與常用APP繫結的方式,使用者不用也得用——而且為什麼不用呢?深度整合入常用APP的AI,體驗是非常絲滑的。金山軟體和微軟一樣,直接把AI融進WPS裡。騰訊也直接把元寶塞進微信裡,使用者無需下載任何APP就能在微信聊天框裡體驗到LLM。那怕是AI落腳點相對少的阿里和螞蟻,也有支付寶、夸克這樣的優質入口。這樣的做法OpenAI、Manus、Kimi們要如何模仿?難道為了與大廠競爭,還要自己做一個手機作業系統或者微信?有些生意,是自力更生,創業公司挑戰巨頭雖然困難,但也有機會。比如米哈游靠著幾部爆款遊戲,迅速在二次元遊戲領域裡成為老大,網易和騰訊資源再多,也沒能阻止米哈游的崛起。但有些生意,對外界的依附太重。AI應用恰恰是這種生意。第一,當然是因為它資產太重,網際網路產品最大的成本往往是買流量,但AI背後可能是數千億美元的固定資產,居民樓創業玩不轉。第二,更重要的是,它的使用場景,與生態的繫結太深,太需要與其他產品的聯動。Manus就是個很好的例子:它的功能當然強大,但在個人使用者端完全沒法獨立幹活,它需要“呼叫”其他網頁,依賴瀏覽器和瀏覽器中的資料。比如訂一張機票,需要帳號授權、支付授權——這些東西都掌握在Google、蘋果、微信這種巨頭手裡。Manus干的是系統級的活,卻完全沒有系統級的權限。相當於普通孩子學了一門“千萬資產理財課”,但他家卻沒有千萬資產。當Google這種瀏覽器和手機作業系統的擁有者親自下場,留給獨立智能體的空間就會越來越狹小。AI搜尋也感受到了這種壓力。畢竟在這個時代,搜尋早不是什麼獨立的APP了,iPhone裡的搜尋框,是由蘋果公司控制的。Perplexity再好用,它也不是蘋果的默認搜尋引擎——Google一年付200億美元獲得了這個身份。在國內,搜尋框則由百度、微信、手機廠商把持,他們很難把搜尋框交給AI創業公司。即便他們利用技術優勢,暫時在大廠的競爭壓力中獲得一定份額,他們還要面臨第二個難題:變現。AI的變現,也得拼爹富貴人家,總是更容易收回教育孩子的成本。他們送孩子去讀個水碩,可以憑藉家庭關係安排進國際銀行,或者進入家族企業擔當要職。但窮人家送孩子去國外讀一年碩士,畢業卻可能會因為學歷含金量不高找不到工作。視角切到AI的變現身上,也沒什麼不同,同樣的一個技術,小公司持有難以變現,大公司就能以不同的方式收到錢。比如在OpenAI還在陷入虧損難題的時候,微軟就通過把GPT服務打包進自家雲服務實現了業績的大幅度增長。OpenAI Service已經成了微軟Azure的王牌產品之一,畢竟客戶們本來就購買了微軟的雲服務,再買點AI服務,屬於捆綁銷售。更不用說Copilot和Office(Microsoft 365)的聯動,微軟把AI工具加入到辦公套件裡,上調訂閱費——不接受?那就別用Office。這也是微軟過去十年重要的增長來源。每當新技術、新變革、新功能出現時,他們就可以對訂閱服務漲價。當然這種漲價是雙贏的,客戶也收穫了便利和價值。在C端,從Gemini和OpenAI的會員中,也可以看到捆綁銷售能力的差距:同樣是賣20美元,Google就可以打包把GoogleOne(Android版本的iCloud)一併打包售賣,AI之外,使用者還能獲得Gmail、相簿裡的儲存空間。這是非常具備吸引力的捆綁銷售方案,畢竟那怕不用AI,使用者也需要郵件和存照片。不難想像,如果Manus屬於Google這樣的巨頭,也許它也會把Manus的訂閱服務加進這個20美元套餐裡,Manus的變現就會更加順滑。而OpenAI的訂閱幾乎只有ChatGPT,那怕Sora、Codex等新產品,也是靠OpenAI自己做的。豆包的變現花樣更加豐富。豆包的回答會把流量引入短影片——之後的商業模式就可以和抖音一樣了,在視訊中間插入廣告就好。豆包還上線了直接的Chat廣告,對話方塊的回答可以直達抖音生態內部的本地生活等服務。比如在豆包裡問附近的好餐館,豆包會直接給出團購連結。圖註:點選連結,就能直達餐館的抖音團購介面這種商業模式Kimi們很難學習,畢竟創業公司可沒有抖音那麼多短影片儲備,也沒有發達的本地生活服務或者電商的供應鏈。它只能向外去賣流量,但眼下的AI行業格局來看,大多數交易平台並不願意把入口交給其他AI工具,即便願意,變現的轉化率也不如生態內那樣高。如果沒有這些變現花樣,那麼AI的商業模式和老乾媽辣醬差不多——一手交錢,一手交貨。也就是在B端賣Token,C端賣訂閱。但這個模式太捲了:客戶只在乎多少錢買到多少Token,難以像微軟的雲服務一樣溢價。個人使用者的訂閱費價格被使用者習慣和行業共識限制:要麼20美元,要麼10-30人民幣。這是多個行業與使用者長期博弈出來的價格,是使用者訂閱習慣的平衡點,大多數行業的訂閱會員,最後都會回歸到這個數字附近。圖註:MiniMax國內產品“星野”的訂閱費用。事實上,國內大多數會員的網路訂閱會員的價格都在這個數字附近,誰想賣更貴都很困難。最近遞交招股書的智普AI和MiniMax,虧損資料都十分嚴重——創業公司,虧損當然很正常,但它們的虧損呈現逐年擴大趨勢,暫時看不到盈利預期在那裡。事實上,這二者的虧損被廣泛討論並不是因為它們的虧損尤為突出,只是因為它們遞交了招股書,在那些沒有遞交招股書的AI企業中,還藏著更為廣泛、普遍的虧損。那怕是已經有7億使用者的OpenAI也不例外。而這個問題,創業公司自己解決起來異常困難,最終很可能需要仰仗大廠的力量。小蝌蚪找爸爸在這個“拼爹”的世界裡,單打獨鬥似乎很難出頭。當出價合理,賣身給巨頭,也是不錯的選擇。Meta接連宣佈收購Scale和Manus,蘋果也被爆出考慮收購Perlexity。一旦被收購,情況就完全不同了。以Manus為例,它過去想呼叫一些功能,要看其他公司給不給權限,還要面臨巨頭自研智能體的競爭風險。但一旦屬於Meta,Manus就可以直接在WhatsAPP、INS、Messenger、Facebook裡獲得原生等級的權限,隨意呼叫各種聊天、購物的功能。更不用說Meta還有AI硬體的佈局,如果與AR眼鏡結合,Manus就能直接獲取SIRI等級的權限。這類AI應用公司,被大廠收購的好處實在是顯而易見。當然,如果自己能成為大廠,誰願意依附大廠呢?OpenAI就不願意。OpenAI原本是有巨頭靠山的,微軟是它的最大的單一機構股東。但可惜,由於特殊的架構,微軟並沒有獲得OpenAI的控制權。微軟管不了OpenAI,自然就不拿它當“親兒子”,不但自己有自己的AI產品,還訓練自己的模型。OpenAI也不想給誰做子公司,作為LLM的最大開創者,它只想自己成為超級大廠。明明微軟有現成的Edge瀏覽器,但OpenAI還是自己想做瀏覽器Atlas,明明微軟是最大的雲服務商,自己找合作夥伴建立算力能力,還與Google合作購買GCP服務。顯然,OpenAI希望成為美股七姐妹那樣真正的超級巨頭。這條路在網際網路時代是被驗證過的,每當行業出現大的變革,總會出現創業公司的崛起,用靈活性打得巨頭節節敗退,甚至最終自己成為巨頭。比如字節跳動在BAT三家統治的網際網路裡,硬是從居民樓裡殺出一條血路,成為網際網路的新一極。還有拼多多、米哈游這種在與騰訊和阿里的競爭中勝利,成為細分領域頭部的公司。畢竟行業的紅利時期總是充滿變革,方向、創意、技術、靈活性才是最重要的。但這條路在AI領域顯得難了太多,三年過去,創業公司的靈活性優勢和先發優勢不斷被大廠的體量碾壓,超級巨頭的優勢愈發明顯。巨頭對各種系統級的入口掌握權限,起到的作用太大了。如果說AI故事的第一章叫作「技術的革命」,那麼第二章的主題,看起來越來越像「權力的遊戲」。 (鈦媒體)
AI眼鏡賣得太好!Meta暫停國際擴張計畫
Meta宣佈,由於Meta Ray-Ban Display上市以來市場反響異常熱烈,需求遠超預期,公司決定暫停原計畫於2026年初推進的國際市場擴張,優先履行美國市場的訂單。在CES 2026年期間,科技巨頭Meta公司宣佈了一個頗為“掃興”的消息:由於去年推出的AI眼鏡賣得太好,原定於2026年初啟動的國際市場拓展計畫將被迫擱置。作為背景,Meta去年9月發佈新一代智能眼鏡Ray-Ban Display,配備全彩高畫質螢幕與神經感應腕帶,能夠通過語音和手部動作(肌電訊號)進行互動。這款眼鏡定價799美元,目前僅在美國市場銷售。(祖克柏在發佈會上展示Ray-Ban Display和腕帶)在周二發佈的公告中,Meta宣佈,Meta Ray-Ban Display去年秋季上市以來,市場反響異常熱烈,需求遠超預期,目前的產品等待名單已經排到2026年以後的較晚時間。鑑於這種前所未有的需求以及有限的產能,公司決定暫停原計畫於2026年初推進的國際市場擴張,包括英國、法國、義大利和加拿大。下一步Meta將優先集中資源履行美國市場的訂單,同時重新評估該產品在國際市場的供應與推出策略。此前Ray-Ban母公司Luxottica也曾表示,三季報營收增長中很大一部分來自與Meta的智能眼鏡合作。公司也表示,計畫在2026年將Meta聯名眼鏡的產能擴大至1000萬台。除了宣佈海外市場“跳票”以外,Meta也在CES公告中宣佈將推出多項智能眼鏡新功能,包括提詞器和肌電手寫功能。Meta表示,新的提詞器功能能夠隱蔽地嵌入眼前的顯示器中,支援自訂文字卡片,並能通過感應腕帶進行簡單操作。同時,在佩戴感應腕帶時,智能眼鏡使用者能夠僅用手指在任意表面上快速記下資訊,這些動作會被即時轉錄為數字資訊,通過即時通訊軟體傳送。Meta強調,這種互動方式可以在手臂自然垂放或在桌面上舒服地完成。Meta也表示,正在與Garmin合作將腕帶操作接入車載資訊娛樂技術方案中,也在與猶他大學合作評估消費級腕戴裝置的潛力,為不同手部活動能力的人群提供操控智能家居裝置的新選擇。 (科創板日報)
繼DeepSeek之後,中國AI新突破或再次震動華爾街
中國的AI技術基礎正在不斷進步,這一點不容忽視。中國正為輝達等美國晶片巨頭帶來新的AI威脅,這可能削弱市場對華爾街最大增長引擎的信心,就像一年前DeepSeek聊天機器人發佈時那樣。據《南華早報》報導,上海和北京高校的科學家們開發出了一款用於人工智慧訓練與推理的光子計算晶片,其性能優於包括輝達生產的傳統矽基晶片。報導稱,這款全新晶片被命名為LightGen,其運算速度和效率都超過了輝達的Blackwell 系列GPU,不過其應用場景更側重於視訊生成和圖像合成,而非更廣泛的AI工作負載。與此同時,Meta正以25億美元收購總部位於新加坡、由中國團隊創辦的人工智慧初創公司Manus,該公司聲稱已研發出全球首個通用AI代理,性能超越OpenAI的深度研究模型(Deep Research)。這兩項進展應引起投資者警惕,他們正在(或許已經有些不耐煩地)等待大型AI相關個股找到下一個增長突破口。過去幾個月,由於市場擔憂資料中心支出增速過快,且資金轉化為利潤的周期超出預期,這些科技巨頭的股價紛紛受挫。目前輝達較10月底觸及的最高點下降了11%,微軟和Meta則下降了約14%。規模較小的超大規模雲服務商股價回撤更為劇烈,甲骨文下跌了43%,而AI雲平台提供商CoreWeave則下跌超過48%。據標普道瓊斯指數資深分析師霍華德·西爾弗布拉特稱,大型科技股的漲幅將在2026年繼續成為標普500整體表現的關鍵支柱,“七巨頭”預計將為該指數預期的15%漲幅貢獻大約45%。其中,兩大AI龍頭股輝達和微軟,將佔據標普500指數預期漲幅的30%左右。如果投資者認為中國近期的技術進步對美國在AI領域的領先地位構成威脅,美股在年初可能會面臨大幅回呼的風險。不過到目前為止,儘管競爭壓力逐步顯現,投資者依然願意支援本土的人工智慧初創企業。據《華爾街日報》報導,OpenAI計畫在春季前再融資1000億美元,這將使其估值達到8300億美元。Deepwater資產管理公司的基恩·芒斯特(Gene Munster)表示,這意味著OpenAI的估值將是其2026年約350億美元預估銷售額中值的24倍左右。但問題依然存在。無論是AI公司還是美國聯邦政府,都還沒有準備好切斷對中國的關鍵元件供應。去年12月,美國總統川普批准輝達向中國客戶出售其高性能H200處理器——前提是輝達需向美國政府支付25%的營收分成。川普在Truth Social平台上發文稱:“我們將保障國家安全,創造美國就業崗位,並保持美國在AI領域的領先地位。輝達的美國客戶已經在積極採用其極為先進的Blackwell晶片,不久後還將採用Rubin晶片,這兩款產品都不在此次協議範圍內。”不過,中國尚未發放允許輝達銷售H200的許可,同時有報導稱,中國監管部門正推動本土製造的處理器,而非來自美國的產品。這讓外界感覺中國對自身在AI技術領域取得的進展充滿信心。中國最大的人工智慧企業之一DeepSeek去年1月發佈R1產品時,曾引發投資者恐慌,導致輝達股價暴跌17%,納斯達克綜合指數也下跌3%。LightGen晶片的出現目前尚未構成同等重大的擔憂。但值得注意的是,DeepSeek-R1的官方發佈時間是2025年1月20日,而市場的反應整整推遲了七天才到來。而且在年末最後幾個交易日,AI相關股票依舊表現不佳,原因包括資料中心的資本支出和實體經濟企業對新技術的接受度不高。因此,中國在AI領域的最新進展不容忽視。 (Barrons巴倫)
Fortune雜誌─美國科技巨頭為何押注一家中國神秘公司?
今日,Meta宣佈完成對通用自主AI智能體公司Manus(蝴蝶效應)的收購。根據公開資訊,這筆交易金額達數十億美元,也成為Meta成立以來規模第三大的收購案,僅次於收購WhatsApp以及此前對Scale AI的戰略性投資。圖片來源:視覺中國Meta收購Manus的消息出現得很突然。Manus產品去年9月剛剛上線,關於本次收購,似乎也沒有經歷長時間的拉扯。有投資人回憶,談判周期極短。對一家規模龐大、內部流程嚴密的公司而言,這種速度本身就值得注意:它更像一次基於窗口期的決策。更關鍵的是,Meta買下的並不是一家訓練大模型的公司。Manus不以底層模型為核心資產,它的價值更接近一種應用層能力:把現有模型與工具組織起來,形成可以持續完成任務的產品形態。對一家以平台分發和使用者規模見長的公司來說,這樣的併購更像一次戰略補位,而非簡單的功能補充。理解這筆交易,首先需要理解Manus到底在做什麼。與大多數對話式AI產品不同,Manus並不是試圖讓系統“更會聊天”,而是讓它成為一個能交付結果的智能體。在常見的使用場景中,使用者仍停留在“問—答—修訂—再問”的循環裡,而 Manus試圖把互動向前推進一步:使用者只需給出目標,例如完成一份行業研究、整理競品資訊、生成結構化備忘錄,系統會自行拆解任務、呼叫工具、校驗輸出,並在過程中不斷調整計畫。這類產品的難點,並不在於第一次能否給出正確答案,而在於出錯之後能否繼續向前推進。因此,Manus的設計重點更多放在工程與流程上:任務狀態需要被保存,中斷後可以恢復,目標變化時能夠重新計算,錯誤也能被使用者以較低成本糾正。對使用者而言,這意味著不必反覆從頭開始,而是像管理一名初級員工那樣,把事情一步步推向完成。Manus官方披露的營運資料,包括累計處理的token數量和虛擬計算環境規模——更像是一種側面說明:這套系統已經在真實世界的壓力下運行過,而不僅僅停留在演示階段。這種對“持續完成任務”的執念,並非從AI時代才開始形成。把時間線往前撥,壹伴這款用於提升微信公眾號編輯效率的瀏覽器外掛同樣出自這批人。壹伴解決的是排版、編輯、發佈效率等高度具體的問題,它的成功並不依賴宏大敘事,而在於“每天都有人用”。在商業產品中,這類工具型成功往往意味著團隊具備對真實工作流的理解,以及對細節體驗的長期打磨能力。壹伴之後,該團隊又推出了微伴,一款圍繞企業微信生態的工具,服務對象從內容編輯擴展到銷售和企業營運人員,開始處理更複雜的協作、流程和資料連續性問題。這一階段,產品從個人效率工具,演進為組織流程工具,目標也從“好用”轉向“可靠、可控、可複製”。從壹伴到微伴,再到Manus,表面上跨越了不同賽道,但核心高度一致:把重複、繁瑣、需要人持續盯著的事情,逐步交給系統穩定完成。這條路徑,也解釋了為什麼 Manus 會在產品設計中,把“任務持續性”放在如此核心的位置——它更像一家長期做工具的公司,在 AI 時代終於獲得了足夠成熟的技術條件。從團隊背景看,Manus具有明確的中國創業公司起源。創始人肖弘和早期合夥人來自中國本土高校,早期創業與試錯主要發生在中國網際網路環境中,產品方法論偏向務實、節制、貼近使用者。但在進入AI應用階段後,公司逐步將主體與核心營運轉向新加坡,並以新加坡為總部面向全球市場。今天,從法律和營運層面看,它更像一家總部位於新加坡的國際科技公司;從團隊基因和產品文化看,它仍然是一家中國創業者主導的公司。這種結構在當下並不罕見:既滿足國際化營運與合規的現實需求,也為進入全球平台生態預留空間。對潛在收購方而言,這意味著更低的整合摩擦。如果說Manus的價值在於“已經跑通了一種應用形態”,那麼Meta的動機則更像是對多重結構性壓力的回應。將這筆併購簡單理解為“巨頭害怕落後”並不精準。更現實的情況是,AI技術的演進正在壓縮產品窗口期。一旦模型能力跨過可用閾值,使用者預期會迅速從“會回答”轉向“能完成”,競爭重心隨之從模型本身下移到產品化與交付效率。對Meta來說,內部孵化並非不可行,但周期更長、跨部門協同成本更高。併購的意義,並不是買到獨家技術,而是獲得一套已經在真實使用者中跑通的產品範式,從而節省數年的試錯時間。與此同時,入口形態也在發生變化。Meta長期的優勢在於分發,但AI時代的新入口未必表現為某個功能按鈕,而更可能是一種新的互動方式,即使用者把任務交給系統,在後台完成。如果AI Agent成為下一代工作與生活的默認入口,平台價值將被重新分配,Meta顯然不願在這一階段只充當流量提供者。組織層面的壓力同樣存在。當AI從研究走向產品,挑戰往往不在單點技術,而在端到端協同:模型、產品、工程、商業化、合規和安全需要同時推進。大型組織在這一階段反而容易被自身複雜性拖慢,而Manus這樣的團隊,已經在真實使用者中完成了一輪端到端交付的磨合,這類經驗很難通過內部指令快速複製。競爭敘事的變化,也在強化這種緊迫感。Google推出Gemini 3,更像一枚訊號彈:模型能力正在穩定提升並逐步可用,差異優勢正從“更強模型”下沉到“更快把能力變成結果”。交易體量進一步說明了Meta的判斷。Meta收購WhatsApp和ScaleAI幫助這家巨頭在移動網際網路時代完成了使用者結構躍遷,後者被視為其在AI基礎設施和資料能力上的關鍵補位。與這兩筆交易相比,Manus的特殊之處在於,它既不直接對應使用者規模擴張,也不直接對應底層技術突破,而位於兩者之間——應用層的執行與交付能力。這在某種程度上意味著,Meta此次併購的核心考量並非買下已經確定的回報,而是為正在形成的入口形態提前鎖定位置。這是一筆典型的“用時間定價”的交易:資本所購買的,是縮短學習曲線和產品落地周期的能力。併購完成後仍強調獨立營運,也並非姿態。對Meta來說,Manus最關鍵的資產不是程式碼,而是其產品節奏與工程習慣。一旦完全納入大公司流程,這種節奏反而最容易被稀釋。從壹伴算起,Manus團隊做工具已經接近十年。這些產品很少成為行業話題中心,卻反覆出現在使用者真實的工作流程中。它們的共同特徵並不複雜:穩定、可預期、能夠在出錯後繼續向前推進。AI的出現,並沒有改變這家公司想解決的問題,只是讓這些問題第一次有了更合適的技術條件。對Meta而言,這筆併購也不必被解讀為一次激進下注。在模型能力趨同、窗口期縮短的階段,用資本換取確定性,是一種典型的大公司策略。接下來真正值得觀察的,並不是Meta是否能把 Manus 整合進自身產品線,而是這種以“交付結果”為中心的產品節奏,能否在更大的平台體系和更複雜的組織結構中被長期保留下來。這也將決定Manus最終被記住的方式:是一次突然的併購,也是Meta在人工智慧時代重新理解“入口”的起點。 (財富FORTUNE)
深網獨家 | Manus被Meta數十億美元收購背後:創始人肖弘復盤至暗時刻
12月30日,Meta宣佈完成一筆重量級併購,以數十億美元的價格收購AI Agent產品Manus背後的公司“蝴蝶效應”。這是Meta成立以來金額排名第三的收購,僅次於WhatsApp和Instagram。交易完成後,蝴蝶效應將保持獨立營運,其創始人、騰訊青騰校友肖弘將出任Meta副總裁。這筆交易的推進異常迅速。多位接近交易的人士透露,從雙方正式接觸到最終達成協議,整個談判周期僅十餘天。據悉,在收購發生前,蝴蝶效應正以約20億美元的估值推進新一輪融資。Meta對Manus的興趣並非偶然。祖克柏及多位Meta核心高管均為Manus的長期使用者。在Meta近期重組AI研究體系、高薪引入頂尖研究人員,並持續加大算力投入的背景下,這筆收購被視為其推進“超級智能”戰略的關鍵一步。蝴蝶效應成立於2021年,早期以瀏覽器AI外掛Monica切入市場,成為中國AI行業中少數實現盈利的應用產品。2024年3月,公司推出通用AI Agent產品Manus,能夠調度多種工具完成複雜任務,上線後迅速在國內外引發關注。其發展勢頭在2025年達到新的高峰:同年11月,Manus位列“全球最具潛力創業公司”榜單亞洲區第一。值得注意的是,其風靡全球的演示視訊,是團隊用借來的鏡頭、基礎的剪輯工具,在不到一周時間內趕製而成,體現了公司“在本質上重注,在形式上極簡”的極致效率文化。今年12月,公司宣佈年度經常性收入(ARR)突破1億美元,旋即迎來了Meta的收購邀約。對Meta而言,這並非一次單純的產品或團隊併入,而是一項圍繞AI應用形態的戰略佈局;而對這家源自中國的創業公司而言,Manus也由此被正式納入全球科技巨頭的核心體系之中。Meta超級智能實驗室(MSL)負責人Alexandr Wang(汪韜)轉發了相關消息,並配文稱,Manus團隊在探索當今大模型“能力過剩”問題上處於世界領先水平。此外,該實驗室正在新加坡擴展團隊,Manus原有約100名成員已加入其當地組織。獲得如此評價的Manus團隊,其發展路徑卻充滿非常規的選擇。過去兩年,肖弘主導了三次反共識決策:關乎“生死”,叫停研發七個月的AI瀏覽器項目,轉向為AI配獨立電腦;關乎“快慢”,在流量昂貴時堅持零市場預算,押注算力換體驗;關乎“組織”,推動80%程式碼由AI生成,探索“AI 時代公司形態”的未來。從連續創業者到Agent賽道領跑者,肖弘如何思考行業競爭與未來?近日,他與騰訊集團高級管理顧問、騰訊青騰教務長楊國安在《一問》欄目中展開深度對話,復盤Manus的取捨,並分享了他對AI時代產品邏輯及組織進化的思考。以下是對話整理,經精編如下:範式之變:當AI從“給答案”變成“給結果”楊國安:未來10年,AI對你所在行業最大的改變是什麼?肖弘:核心在於產品開發模式的重塑。軟體研發將更多由AI系統主導。在AI輔助下,我們能以更精銳的團隊,極大縮短開發周期。對生活的影響有兩點:一是產品迭代速度將快得超乎想像,衝擊各行各業;二是AI能力將普及化,每個人都需學會高效運用AI以實現自我提升。楊國安:你們相信“模型能力會外溢,應用是價值核心”,如何形成這個判斷?肖弘:這源於我們此前的連續觀察。做Monica(瀏覽器外掛)時,我們發現“上下文”是關鍵,於是讓外掛自動抓取網頁資訊,免去使用者複製貼上。後來Cursor火了,它證明當模型編碼能力成熟時,Chatbot並非最佳產品形態,需要一個更貼合編碼工作流的載體。這兩個案例讓我們意識到,技術能力一直在進化,但產品形態常常滯後。去年底,我們看到“Agent”這種能進行複雜規劃和自主執行的新能力出現,判斷它同樣缺乏好的產品化形態。這就是我們的機會:抓住模型能力外溢的窗口。楊國安:從給答案的Chatbot,到給結果的Agent,最本質的變化是什麼?肖弘:Chatbot給你一個答案,可能需要你再花兩小時把它變成結果。Agent則試圖直接交付那個結果。比如,做一個研究並生成精美的PPT,全程無需干預,只需幾分鐘。這帶來三個深遠變化:一是成本驟降,過去只有諮詢業能做的定製PPT,現在房產中介也能用AI生成;二是多樣性爆發,Agent可平行生成多個版本供你挑選;三是容錯性增強,任務失敗後它能自動反饋、重試,提高了完成率。楊國安:這會如何改變組織形態?肖弘:我們有一個更大膽的展望。一些用好了AI的大公司會變得更強大,但同時會出現大量微型個體。在AI的賦能下,一兩個人就能成就一項過去需要公司才能運作的事業。因為AI替他們省去了搭建組織、管理流程等複雜事務,直接交付結果。楊國安:我在“數智革新楊五環”的1.0版本研究集中在傳統行業的標準化、數位化、智能化,以實現降本增效和精準決策。但你剛才的觀點讓我很興奮——Agent能處理非標任務,這比標準化流程的潛力更大。若真實現,那些行業會受最大衝擊?肖弘:關鍵在於理解Agent是“思考+執行”。AI拓寬思考的廣度與深度,人則負責最終判斷與選擇。因此,衝擊將首先席捲高度數位化的“案頭工作”領域。給AI配一台“電腦”,而非“搶滑鼠”楊國安: Manus採用“大模型+雲端虛擬機器”的架構,核心優勢是什麼?肖弘:這是我們最關鍵的判斷之一。我們思考的終極問題是:AI的終極“外殼”是什麼?答案是:電腦。在數字世界裡,電腦是人類處理一切事務的終端。那麼,給AI配一台專屬電腦,它理論上就能像人一樣完成所有工作。虛擬機器的最大優勢,是能處理海量長尾任務。無論是安裝特定軟體,還是運行自己編寫的程式碼,AI都能在自己的虛擬環境裡完成。我記得第一次感到震撼,是看到Manus執行git clone命令,將開放原始碼專案下載到自己的“電腦”裡來解決問題——這像極了人類“使用工具”的行為。挑戰在於速度和資源消耗,但長期看這些問題會解決。而它能解決通用方案無法處理的長尾問題,這本身就構成了我們的護城河。楊國安:你們曾經投入七個月探索 AI 瀏覽器,但最終決定放棄。為什麼?肖弘:這確實是我們非常關鍵的一次戰略取捨。我們在2024年初立項做AI瀏覽器,在當時看來是一個非常順理成章的判斷。您可能知道,我們在Manus之前有一款產品叫Monica,它是一個瀏覽器外掛。當時我們想,既然我們在瀏覽器外掛上已經做得不錯了,為什麼不直接做一款瀏覽器呢?有了瀏覽器之後,一些任務就可以直接在瀏覽器內幫助使用者執行和完成。想到這個Idea 時,我們非常興奮,覺得它突破了瀏覽器外掛的天花板。我們大概花了六個多月時間去開發這款瀏覽器,從底層技術開始,我們自己編譯了開放原始碼的Chrome核心,然後將AI能力部署上去,讓它能夠在某些任務上實現自動化執行。但是,最終放棄的決定,是基於兩個核心原因:一個宏觀的戰略判斷;一個微觀的產品體驗問題。楊國安:那些改變公司命運的重大決策(如放棄瀏覽器、選擇全球化),背後的思考原則是什麼?肖弘:決策本身的邏輯很清晰:永遠從“技術能解決使用者的什麼根本問題”出發,再推導商業模式。真正的難度不在於分析,而在於有無勇氣堅持清晰的答案,並克服內部慣性,將其變為全組織的共識與行動。思考可能只需一個月,但落地執行往往更耗心力。楊國安:Agent技術落地的臨界點將取決於什麼?肖弘:我覺得可以從兩個層面來看。第一類,是您剛剛提到的核心基礎能力的提升。比如成本、速度、更長的上下文、以及在長上下文的指令遵循能力。這些都至關重要。成本和速度直接影響了產品是否能被更多使用者負擔和使用。指令遵循和上下文處理則影響了任務的完成率。這些能力我們一直在密切關注,一旦有新的突破,肯定會立即應用到產品化中。第二類,有一項能力是我個人比較期待的,它雖然已經被應用,但我預測在今年內或明年初會有比較大的突破,就是通用的電腦使用能力。這意味著AI自己能夠識別並掌握如何使用一個軟體。這項能力一旦突破,像Manus這種自帶虛擬機器的產品,就能夠完成更多專業軟體或特定行業軟體的應用。我們可以想像,未來你拿起手機,通過Manus就能讓它去完成一個本來需要在電腦上用行業專業軟體才能完成的事情。我認為這項能力即將實現突破。根據我們與研究員的觀察和交流,一旦突破,將解鎖更多的應用場景。楊國安:如果Agent能直接呼叫現有軟體,繞過人工操作,會帶來什麼變化?肖弘:最大的變化是“解放值守”。許多需要人坐在電腦前操作專業軟體的任務,未來可以由Agent自動完成。AI已能處理其中的基礎判斷。即使遇到關鍵節點,也可像手機安裝App時請求授權一樣,由人一鍵確認。這最終將徹底顛覆現有軟體的操作邏輯和人們的工作方式。用昂貴的算力換取增長楊國安:PC時代有“安迪-比爾定律”——硬體(英特爾)的提升總被軟體(微軟)消耗掉。這是否說明,價值是由“技術能力”和“應用能力”共同創造的?肖弘:是的,這正是我們的核心參照。“安迪-比爾定律”建立在摩爾定律之上,意味著算力增長必然催生更耗資源的應用。微軟當年就是依據對未來算力的預測來規劃Windows的。這直接啟發了我們的產品思路:在技術飛速進化的當下,我們是否可以暫時忽略成本與速度,只專注於打造極限質量的產品?我們跟蹤最前沿的模型,不計代價地追求最佳體驗。這與傳統網際網路平衡質量、速度、成本的思路截然不同,也是我們敢於將昂貴算力轉化為核心競爭力的原因。楊國安:你們堅持“產品驅動增長”,零市場預算,這種打法的持續性如何?肖弘:這個思考來源於我們做Monica時的觀察。我記得當時與一位企業家交流時,他提到今天AI產品的成本結構,以Monica為例:在2024年,約三分之一的成本是員工薪資,三分之一是Token(大模型呼叫)費用,另外三分之一是投放在網際網路廣告平台上的增長費用。那次對話對我的啟發很大。我就在想:如果我們做一款產品,持續有大量的成本投入到廣告平台,那麼我們的增長就很可能被網際網路巨頭廣告平台所定義。我記得當時的情況是,一旦我們快要盈利、有了好的利潤空間時,廣告平台就會立即漲價,這種模式幾乎是可計算的。這與消費品行業通過廣告平台獲取增長後面臨的問題是相似的。所以我當時思考:有什麼東西是今天很貴,但未來會很便宜的?以及有什麼東西是今天很便宜,但未來會越來越貴的?結論是:AI API(Token 成本)今天很貴,但從長期來看,受摩爾定律和底層技術發展的驅動,它一定會變得更便宜。網際網路使用者的價格卻在不斷上漲。在早期,使用者願意探索,但一旦產品與市場契合,現有玩家就會通過廣告平台來獲取使用者,推高整個行業的使用者獲取成本。基於這個判斷,我給團隊設定的目標是:我們能否做出一個讓使用者覺得非常厲害、願意主動告訴朋友的產品?在某種程度上,我們就將原本昂貴的Token成本轉化為我們的使用者獲取成本。隨著 Token成本越來越便宜,而使用者獲取成本越來越貴,這個模型就具備了長期可持續性。當時給團隊的目標是:創造出讓人感到驚豔、願意傳播的產品,並且做到零市場行銷預算。在Manus上線的前一周,我們開了一次內部會議,正式確定必須是零市場預算。所以,今年年初大家看到Manus在社交媒體上火爆,是因為我們在某種程度上打造出了使用者預期的產品。像一些意見領袖之所以轉發,正是因為它確實擁有令人震驚的體驗,實現了大家對未來 AI 產品的設想。楊國安:為何首選服務C端“獨狼型”使用者,而非B端?肖弘:底層判斷是技術階段匹配。AI Agent技術仍處早期,迭代極快。大企業需要確定性和穩定性,而個體用戶、自由職業者更能容忍變化、擁抱創新。在技術快速變化的早期,最大化發揮迭代速度優勢的,正是C端市場。楊國安:Manus的生存戰略是與巨頭合作共生。許多巨頭包括Anthropic、OpenAI、Google等,已經有可能會推出自己的Agent。那麼,你們如何在這些巨頭中找到合作共生的機會呢?肖弘:我們的策略是合作共生,扮演“最佳體驗整合者”。底層模型競爭激烈,沒有一家能持續壟斷所有能力。Manus作為應用層,可以靈活整合各家最優模型,理論上能為使用者提供比任何單一家都更極致的體驗。這類似手機廠商與晶片廠商的關係:我們雖不造晶片(模型),但憑藉對使用者需求的深度理解和巨大用量,能反推模型最佳化,形成共贏。楊國安:如何讓Manus突破早期使用者,被普通大眾廣泛接受?肖弘:關鍵在於兩點:一是產品體驗的絕對差異化。在ChatGPT已成習慣的海外市場,我們必須讓使用者一眼感知到不同。比如,Manus不僅給答案,還會主動生成一個可互動的網頁,讓“Agent給結果”變得可視、可感。二是進行“場景化”的市場傳播。我們正跳出AI圈,與各垂直行業的博主合作,讓他們基於自身真實需求使用Manus,並向其受眾展示具體的使用場景,用他們熟悉的語言來定義Manus的價值。當“一個人成為一家公司”楊國安:當AI全面重構工作流,組織的核心任務似乎正在發生轉變。從你們的實踐看,這是否意味著傳統以管控和協作為主的模式需要被重新定義?你們強調“增強”並借此做出顛覆性決策,這套新模式的底層邏輯是什麼?肖弘:我們的實踐正是對這三個問題的同步回答。首先在組織上,我們正回歸一種更緊密的協作形態。即便公司規模擴大,我們幾位核心合夥人最近又重新坐在一個小房間裡工作,並設立每天固定的“無會議時段”專注討論產品。這背後的啟示是:當AI極大提升個體效率後,組織最核心的任務不再是管控流程,而是保障最關鍵的決策單元能進行高強度、高質量的思考與共識形成。其次,這也正是“增強”而非“替代”的落地體現。AI負責執行與拓寬思路,而人不可或缺的價值在於最終判斷、對齊預期與把握場景。組織創造這樣的深度溝通空間,就是為了強化“人”在戰略與審美上的最終決策權。最後,那些顛覆性決策正源於此。無論是砍掉項目還是All in新方向,邏輯都始於“技術能解決用戶的什麼根本問題”。真正的挑戰從來不是分析,而是在答案明確後,有無勇氣打破內部共識與路徑依賴,並將新共識堅決地付諸實踐。高頻、高質量的面對面碰撞,正是我們凝聚這種戰略勇氣、確保共識堅固的關鍵熔爐。楊國安:你認為100分的“AI原生組織”是怎樣的?肖弘:我們給自己打60分,因為很多工作慣性仍沿用舊方式。100分的組織,是AI深度融入每一個工作環節,成為員工的“第一反應”。就像遇到問題先Google一樣,未來員工會本能地先問AI。在新增任務上,我們會優先問:“這個能不能直接交給AI做?” 這才是真正的AI原生工作流。楊國安:我知道你在招聘時,也在努力識別那些真正具備AI原生思維的人才。你是如何識別這些人的?肖弘:我的方法是看他如何實際使用AI。我會請對方展示日常使用AI的痕跡。真正的AI原生者,使用量會遠超常人,AI已深度嵌入其工作流。“There’s No Software”的激進實踐:用AI吞食舊世界楊國安:你曾經提到過“There's No Software”的觀點。你認為Agent的發展將對軟體產業帶來那些影響?肖弘:根據我的觀察,這種影響已經開始形成,主要分為兩大部分。第一部分,是對軟體工程師和技術人員的影響。像Cursor或是Claude Code這樣的產品,已經讓軟體工程師的工作方式發生巨大變化。以我們公司為例,Manus主要的幾位工程師基本上不再親自手寫程式碼。我觀察他們的工作狀態,他們會打開多個Coding Agent窗口,像在與人聊天一樣進行協作。統計發現,我們公司接近80%的程式碼都是由AI生成的。工程師現在做的更多是梳理業務需求、審查程式碼質量、以及架構設計等工作。所以對軟體工程師來說,這種變革是正在發生且會更加徹底。我很難想像幾年後軟體開發會是什麼樣子,或許真的會像科幻片裡那樣,通過自然語言描述就能快速生成一個優秀的產品。第二部分,是對非技術崗位和組織內部IT系統的影響。很多組織內部的非工程師崗位也需要資訊系統支援。過去他們需要搭建內部IT團隊或尋求外部外包服務。我的觀察是,未來這種內部系統或非工程師崗位的資訊系統需求,一定能直接通過 AI Agent來完成。這種變革是巨大的:迭代周期會比外包更短,需求的個性化程度更高,你告訴Agent需求,它能立刻給你實現。這種變化在今天被低估了。Manus在這方面也有投入,我們近期會發佈相關產品。楊國安:AI將如何改變未來的SaaS行業?肖弘:我們的觀察和分析是,也許會分化為兩條路徑:對於存量SaaS,關鍵在於能否成功進行AI化改造。有頂級併購基金判斷,約一半的現有SaaS公司可能無法完成這一轉型。對於新增市場,創業者不必複製舊模式,而應基於已驗證的客戶需求,用AI原生的思維重新建構產品,這將是更大的機會。楊國安:隨著AI Agent有越來越強大的自主性,未來員工人數可能會減少。你是怎麼思考這種技術進步對行業帶來的社會影響?你在產品或技術上有沒有考慮倫理、安全等邊界問題?肖弘:這是一個必須長期思考的問題。一次測試中,Manus為查詢火車時間,在發現官網因罷工無資料後,竟試圖尋找聯絡方式、起草詢問郵件。這讓我們既震撼又警惕。但最後它沒成功,因為它沒有信箱,但它甚至準備去註冊一個信箱。那一刻,我覺得既驚訝又有些害怕。我們的原則是:一是利用好模型廠商已有的安全護欄;二是在關鍵節點設定使用者確認機制,防止AI“過度代表”使用者。作為創業者,我們的責任是釋放技術潛力,同時對其深遠影響保持敬畏與審慎。 (深網騰訊新聞)
🎯你只知道台光電 台燿 欣興 尖點 富喬..這檔PCB「隱形冠軍」將成2026主力押寶大黑馬!Line@連結:https://lin.ee/mua8YUP🎯你知道現在的AI需求有多誇張?Google、AWS、Meta資料中心狂蓋,伺服器像不用錢一樣拉貨。PCB已經不是板子,是AI的高速公路。頻率越高、速度越快,路基就越重要。而這條路基,正在缺一種關鍵材料,缺到爆。最近我們看到2383台光電、6274台燿股價也領先表態創下歷史新高;其他像2368金像電、2313華通、8358金居、3037欣興、1815富喬、5498凱崴、8021尖點...這些PCB供應鏈,幾乎只要跟「高頻、高速」沾上邊的,都成了台股盤面上的焦點。但你不知道的是,這些CCL大廠現在正為了搶奪一種神祕的「特用樹脂」而爭破頭。這家藏在傳產化學標籤下的「AI隱形冠軍」,那就是【4722國精化】。🚀產能進入「大爆發」前夜:這不是轉型,這是重塑!國精化不再是你想的那家傳統化學廠,它正全面殺入AI電子材料核心區:👉HC材(AI專用樹脂):隨著輝達與CSP大廠追單,市場傳出擴產進度大幅提速!從2025到2026年,高階電子材料產線有望呈倍數式開出。👉PSMA樹脂(稀缺王牌):這種高頻CCL的關鍵材料,全球供貨商屈指可數。國精化聯手日本大廠JSR,正瞄準原本數倍大的供應缺口強勢布局!💰 法人眼中的「PE重評價」:獲利結構即將質變!市場法人最興奮的不是營收,而是「獲利純度」:毛利上修:隨著電子材料佔比拉升,整體毛利率有望脫離傳統化學的紅海,向20%以上的高標挑戰。本益比重新定價:當一家公司從「傳統化工」變身為「AI關鍵特化」,市場給出的評價將會完全不同!看看2383台光電、6274台燿股價已經在反映2026年的盛世,而作為「上游中的上游」供應商,4722國精化的轉型拐點,很可能就是下一個盤面焦點。🔴接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)
「法國政變」AI假影片超千萬人看Meta拒下架引爭議
最近刷社交平台的朋友大機率刷到過這麼一條炸裂的視訊:埃菲爾鐵塔下警燈閃爍,直升機低空盤旋,一名"記者"對著鏡頭嚴肅播報,說法國發生軍事政變,總統馬克宏已經被罷黜下台。這段看起來跟正規新聞沒差的影片,短短幾天就狂攬1300萬次觀看,不僅讓法國民眾慌了神,連非洲國家元首都專門發消息給馬克宏問"你還好嗎",堪稱年度最離譜的AI造假大事件。可更讓人匪夷所思的是,明明法國官方都連夜出面澄清"政府運作一切正常",馬克宏團隊更是第一時間找平台母公司Meta要求下架,結果Meta直接甩臉拒絕,理由是"內容沒違反平台使用條款"。這波操作直接把爭議拉滿——一邊是國家主權被虛假資訊挑釁,一邊是科技巨頭拿"規則"當擋箭牌,這場AI假新聞引發的博弈,遠比影片本身更值得細扒。01. 一則AI 謊言1300萬次瘋傳的輿論漩渦先說說這段假影片有多會"裝真"。發佈者是化名"ISLAM"的使用者,搞了個根本不存在的"Live 24"新聞頻道,找了個演員冒充記者,站在看起來像是愛麗舍宮附近的場景裡播報。畫面裡有模有樣:武裝士兵站崗警戒,圍觀民眾一臉驚慌,背景音裡還混著警笛聲和直升機轟鳴,埃菲爾鐵塔的燈光更是還原得一模一樣。更絕的是敘事技巧,它不說"據說",而是用肯定的語氣宣稱"一名未披露姓名的上校發動政變,馬克宏已被解除職務",這種逼真的場景+篤定的口吻,別說普通網友了,就算是有點辨別力的人,乍一看都容易被帶偏。更諷刺的是,這已經不是同一個發佈者第一次搞事了。早在12月初,他就發過另一段AI生成的政變視訊,謊稱是法國國際廣播電台(RFI)播報的,當時播放量也破了300萬次。而這次之所以能破1300萬次瘋傳,還恰逢法國真實的政治動盪——12月4日法國國民議會剛通過不信任動議,讓上任才三個月的巴尼耶總理下台,馬克宏剛任命新總理,政治僵局還沒有化解。這種"真實困境+假消息"的疊加,讓不少人半信半疑,也給假影片的傳播提供了絕佳溫床。02. Meta的硬剛平台立場與監管博弈的背後法國官方的反應可以說是又急又無奈。馬克宏一開始聽說這事兒還覺得有點可笑,但當看到觀看量蹭漲,還驚動了外國元首,立刻下令團隊處理。他在馬賽的公開活動上氣得直懟:"這些人是在嘲弄我們,根本不在乎公共辯論的健康,更蔑視民主國家的主權!" 可即便總統親自發聲,Meta依舊不為所動。從馬克宏團隊第一次投訴到影片最終下架,整整過了三天,這段假影片已經像病毒一樣傳遍了法語社交網路,造成的誤解和恐慌早就無法挽回。Meta為何敢這麼硬氣?這背後其實早有伏筆。今年1月,創辦人祖克柏就宣佈,旗下平台要取消大部分事實查核政策,還說"事實查核員充滿政治偏見,破壞信任"。外界都看得明白,這就是在討好即將上任的川普——畢竟川普之前一直抱怨Meta的內容審計"侵犯言論自由",甚至暗示要找平台麻煩。所以Meta乾脆砍了事實核查這道防線,改用所謂的"社區筆記"來替代,可面對AI生成的高度模擬假新聞,這種鬆散的審計機制根本就是形同虛設。這次拒絕下架,本質上就是Meta"放棄審計"邏輯的必然結果:只要內容沒觸及暴力、仇恨這些底線條款,那怕已經擾亂了他國社會秩序、引發了外交關切,也能拿"言論自由"當藉口推脫責任。直到後來可能迫於歐盟《數字服務法案》的壓力——畢竟歐盟剛在12月5日給另一個社交平台開了高額罰單,Meta才不情不願地給視訊加了個極不顯眼的標籤"內容可能經數字修改",又過了幾小時才終於下架。但在這三天裡,虛假資訊已經完成了擴散,傷害早就造成了。03. 謊言的警示 AI時代虛假資訊治理的難題這事兒最讓人細思極恐的地方,在於AI造假的低成本和高破壞力。以前造個假新聞還得P圖、寫文案,現在只要輸入指令,AI就能生成以假亂真的視訊,一個化名使用者零成本就能攪動國際輿論。更可怕的是,這種虛假資訊已經開始影響國際關係了——這次是非洲元首致電詢問,下次要是有人偽造"兩國開戰"、"領導人遇襲"的視訊,後果簡直不敢想。馬克宏說得沒錯,這已經不是簡單的造謠,而是在"把我們推向危險的境地"。而Meta的做法,本質上是把流量和政治利益看得比公共責任更重。作為擁有數十億使用者的科技巨頭,它早就不是單純的社群平台,而是能影響全球資訊傳播的關鍵力量。但當一個企業的規則能凌駕於各國公共利益之上,當AI技術的濫用得不到有效約束,所謂的"資訊自由"就變成了"混亂自由"。法國政府再強勢,面對跨國科技巨頭也顯得無力-你要求下架,人家說"不違反規則";你批評不負責任,人家背靠美國政治勢力有恃無恐,這背後其實是科技霸權對國家主權的公然挑戰。現在影片雖然下架了,但爭議遠遠沒有結束。馬克宏已經明確表態,歐洲必須加快制定針對性法規,要求平台及時清理"明顯虛假內容",還要公開核心演算法、嚴格審計帳戶。歐盟也正在通過《數字服務法案》給平台劃紅線,可真正的難題在於,AI技術的發展速度遠遠超過了監管的步伐。今天能創造出"政變"假新聞,明天就能生成更難分辨的虛假影像,當謊言變得越來越逼真,我們該怎麼守住真相的底線?更值得警惕的是,虛假資訊已經成了地緣政治博弈的工具。法國安全部門之前就報告過,有上百個網站專門傳播親俄宣傳,而這類虛假資訊往往會利用真實事件的"核心"包裝謊言——比如之前就有人利用馬克宏取消訪烏的真實消息,編造"烏克蘭暗殺計畫"的假視訊。這次的"政變"謊言,說不定也是某種勢力刻意為之,目的就是擾亂法國社會秩序、破壞其國際形象。說到底,這場1300萬次觀看的AI假新聞鬧劇,撕開的不僅是Meta的遮羞布,更是全球數字治理的漏洞。當科技巨頭放棄責任,當AI技術淪為造謠工具,沒有那個國家能獨善其身。馬克宏的憤怒,本質上是對這種"數字無政府狀態"的無奈;而我們每個人,也可能成為下一個虛假資訊的受害者。現在問題來了:是該讓平台為虛假資訊承擔更多責任,還是該靠技術進步來識別AI造假?是該通過國際法規來約束科技巨頭,還是該讓各國自行制定監管規則?這場關於真相、權力和責任的博弈,才剛剛開始。而我們能做的,或許就是在刷到那些"炸裂新聞"時多留個心眼——畢竟在AI時代,眼見不一定為實,多等一秒官方通報,可能就少一次被謊言欺騙。 (外事匯)